人类利用组成性从过去的经验概括到实际或虚构的新颖经验。为此,我们将我们的经验分为基本原子成分。然后,这些原子成分可以通过新颖的方式重新组合,以支持我们想象和参与新经验的能力。我们将其视为学习概括构图的能力。而且,我们将提到利用这种能力作为组成学习行为(CLB)的行为。学习CLB的一个核心问题是解决结合问题(BP)(首先,通过学习将支持性刺激成分与观察到多个刺激的观察,然后将它们结合在单个情节体验中)。尽管人类轻松地表现是智力的另一个壮举,但最先进的人造代理人并非如此。因此,为了建立能够与人类合作的人工代理,我们建议开发一种新颖的基准测试,以通过求解BP的域 - 不可稳定版本来研究代理商展示CLB的能力。我们从引用游戏的语言出现和基础框架中汲取灵感,并提出了参考游戏,标题为“元参考游戏”的元学习扩展,并使用此框架来构建我们的基准测试,我们将符号行为基准(S2B)命名。但是,尽管在本文中,它有可能测试更多符号行为,而不是仅仅是CLB,但我们仅专注于测试CLB的单格语言接地任务。我们使用最先进的RL代理商为其提供基线结果,并表明我们提出的基准是一个令人信服的挑战,我们希望我们能促使研究社区发展出更有能力的人工代理。
translated by 谷歌翻译